from pyspark import SparkConf, SparkContext

if __name__ == '__main__':
    # 构建SparkConf对象
    conf = SparkConf().setAppName("test").setMaster("local[*]")
    # 构建SparkContext执行环境入口对象
    sc = SparkContext(conf=conf)

    rdd = sc.parallelize([("a", 1), ("a", 2), ("b", 3), ("b", 10)], 3)

    rdd1 = rdd.sortBy(lambda x: x[1], ascending=False, numPartitions=3)
    """
    sortBy:排序
    参数1：指定排序的列
    参数2：升序/降序
    参数3：分区数量
    
    如果要保证全局有序，分区数量设置为1
    """
    print(rdd1.collect())
